在資料中有哪些偏見會產生呢?讓我們看下去
Missing Feature Values:
我們的數據擁有特徵(feature),當這個(些)特徵發現缺少大量示例的值,表這個數據資料中可能有某些特徵值沒有被表現出來。所以當發生有缺少時,要檢查是否資料發生的原因,以及這樣的原因是否會影響我們的結果。
Unexpected Feature Values:
在瀏覽我們的資料集時,要檢查一下是否有一些極值,或是奇怪、不該存在的資料在裡面,因為那些資料會造成初期整理的時候就會造成影響,甚至模型訓練的時候造成誤差。
Data Skew:
在數據資料中,發生了偏斜現象,就是說某些特徵相對於事實有所偏離,例如我們要算台北的房價,可能因為選擇交通方變得地方也就是捷運附近,但是其他地方沒有選擇,例如帝寶社區、陶朱隱園等等,就會算出來平均價格其實是低的。因此這樣的資料偏斜,也會造成模型訓練發生問題。
參考文章:【Day15】2rd:表現(Representation)
睫毛之聲:
光是資料就要處理好多,眼睛都花了